تشخیص حس وابسته به گوینده گفتار فارسی با استفاده از ویژگی های آکوستیکی

Authors

منصوره کرمی

کارشناس‏ارشد هوش مصنوعی دانشگاه صنعتی شریف پریا جمشیدلو

کارشناس‏ارشد زبان شناسی رایانشی دانشگاه صنعتی شریف حسین صامتی

دانشیار دانشکدۀ کامپیوتر دانشگاه صنعتی شریف

abstract

بیان احساس در ارتباطات روزمره از جایگاه ویژه ای برخوردار است. از جمله بسترهای نمود احساس، گفتار است. از این رو، یکی از جنبه های مهم در طبیعی سازی ارتباط میان انسان و ماشین، تشخیص حس گفتار و تولید بازخورد متناسب با احساس درک شده است. باوجود پیشرفت های گسترده در حوزه پردازش گفتار، استخراج و درک احساس پنهان در گفتار انسان، همچون خشم، شادی و جز این ها، از یک سو و تولید گفتار احساسی مناسب از سوی دیگر، همچنان یکی از چالش های مهم برای ساخت ماشین های هوشمند محسوب می شود. در این مقاله، یک سیستم وابسته به گوینده برای تشخیص حس گفتار فارسی ارائه شده است. مراد از تشخیص حس وابسته به گوینده گفتار، شناسایی خودکار حالت احساسی یک یا چند گوینده خاص با استفاده از نمونه های گفتاری آنهاست. در طراحی سیستم معرفی شده، از روش های آماری استفاده شده است و معماری آن شامل دو بخش اصلی، استخراج ویژگی و آموزش مدل دسته‏بند می‏باشد. در مرحله استخراج ویژگی، 28 ویژگی آکوستیکی شامل اطلاعات مربوط به فرکانس گام، ساخت سه فرمنت اول و دامنه از نمونه‎ های گفتار احساسی دو گوینده (یک مرد و یک زن) به طور مجزا و به ازای شش حس متفاوت خشم، تنفر، ترس، شادی، غم و خنثی استخراج شده است. پس از تشکیل بردار ویژگی، سه روش دسته بند، شامل ماشین بردار پشتیبان[i]، k نزدیکترین همسایه[ii] و شبکه عصبی[iii]، آموزش داده شده اند. در نهایت، سه روش پیاده سازی شده با استفاده از پار ه گفتارهای احساسی داده آزمون ارزیابی شده و دقت و صحت و بازخوانی آنها مشخص شده است. با مقایسه عملکرد سه روش دسته بند مشخص شد که بیشترین دقت برای گوینده مرد و زن به ترتیب مربوط به ماشین بردار پشتیبان (97 درصد) و شبکه عصبی (93 درصد) بوده است. این در حالی است که در آزمون انسانی صورت گرفته، میانگین دقت انسان در تشخیص حس پاره گفتارهای احساسی داده آزمون 78 درصد و کمتر از دقت روش های دسته بند گزارش شده در سیستم پیاده‏سازی شده است. [i]. support vector machine (svm) [ii]. k-nearest neighbor (knn) [iii]. neural network (nn)

Upgrade to premium to download articles

Sign up to access the full text

Already have an account?login

similar resources

تشخیص حس وابسته به گویندة گفتار فارسی با استفاده از ویژگی های آکوستیکی

بیان احساس در ارتباطات روزمره از جایگاه ویژه ای برخوردار است. از جمله بسترهای نمود احساس، گفتار است. از این رو، یکی از جنبه های مهم در طبیعی سازی ارتباط میان انسان و ماشین، تشخیص حس گفتار و تولید بازخورد متناسب با احساس درک شده است. باوجود پیشرفت های گسترده در حوزة پردازش گفتار، استخراج و درک احساس پنهان در گفتار انسان، همچون خشم، شادی و جز این ها، از یک سو و تولید گفتار احساسی مناسب از سوی دیگ...

full text

تشخیص حس وابسته به گویندة گفتار فارسی با استفاده از ویژگی‌های آکوستیکی

بیان احساس در ارتباطات روزمره از جایگاه ویژه‌ای برخوردار است. از جمله بسترهای نمود احساس، گفتار است. از این‌رو، یکی از جنبه‌های مهم در طبیعی‌سازی ارتباط میان انسان و ماشین، تشخیص حس گفتار و تولید بازخورد متناسب با احساس درک‌شده است. باوجود پیشرفت‌های گسترده در حوزة پردازش گفتار، استخراج و درک احساس پنهان در گفتار انسان، همچون خشم، شادی و جز این‌ها، از یک‌سو و تولید گفتار احساسی مناسب از سوی دیگ...

full text

رتبه‌بندی واج‌های گفتار فارسی از نظر کارآیی در بازشناسی گوینده

در این مقاله، کارآیی واج­های گفتار فارسی از نظر بازشناسی گوینده مورد مطالعه و پژوهش قرار گرفته و با توجه به میزان کارآیی­ها، رتبه­بندی واج­ها صورت گرفته‌اند. جهت برآورد کارآیی واج­ها، از یک معیاری که به­صورت نسب « فاصلة بین­گوینده­ای» واج­ها به « فاصلة در گوینده‌ای» تعریف شده است و ما آن را « نسبت تأثیرپذیری گوینده » نامیده­ایم، استفاده شده است.­ آزمایش­ها و محاسبات لازم برای کلیه واج­های گفتار...

full text

تشخیص حالت احساسی از سیگنال گفتار در حالت مستقل از گوینده با استفاده از آنتروپی بسته موجک

در این مقاله آنتروپی بسته موجک برای بازشناسی احساسات از گفتار در حالت مستقل از گوینده پیشنهاد شده است. پس از پیش‌پردازش، بسته موجکِ db3 سطح 4 در هر فریم محاسبه شده است و آنتروپی شانون در گره‌های آن به عنوان ویژگی در نظر گرفته شده است. ضمناً ویژگی‌های نواییِ گفتار شامل فرکانس چهار فرمنت اول، جیتر یا دامنه تغییرات فرکانس گام و شیمر یا دامنه تغییرات انرژی به عنوان ویژگی‌های پرکاربرد در حوزه تشخیص احس...

full text

تشخیص حالت احساسی از سیگنال گفتار در حالت مستقل از گوینده با استفاده از آنتروپی بسته موجک

در این مقاله آنتروپی بسته موجک برای بازشناسی احساسات از گفتار در حالت مستقل از گوینده پیشنهاد شده است. پس از پیش‌پردازش، بسته موجکِ db3 سطح 4 در هر فریم محاسبه شده است و آنتروپی شانون در گره‌های آن به عنوان ویژگی در نظر گرفته شده است. ضمناً ویژگی‌های نواییِ گفتار شامل فرکانس چهار فرمنت اول، جیتر یا دامنه تغییرات فرکانس گام و شیمر یا دامنه تغییرات انرژی به عنوان ویژگی‌های پرکاربرد در حوزه تشخیص احس...

full text

تشخیص لهجه های زبان فارسی از روی سیگنال گفتار با استفاده از روش های استخراج ویژگی کارآمد و ترکیب طبقه بندها

Speech recognition has achieved great improvements recently. However, robustness is still one of the big problems, e.g. performance of recognition fluctuates sharply depending on the speaker, especially when the speaker has strong accent and difference Accents dramatically decrease the accuracy of an ASR system. In this paper we apply three new methods of feature extraction including Spectral C...

full text

My Resources

Save resource for easier access later


Journal title:
صوت و ارتعاش

جلد ۲، شماره ۴، صفحات ۳-۱۴

Hosted on Doprax cloud platform doprax.com

copyright © 2015-2023